AAAI 2023 | 权重不是低秩的，但特征是

Original An PaperWeekly

2024-08-22

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

论文标题：

Compressing Transformers: Features Are Low-Rank, but Weights Are Not!

论文链接：

https://cs.nju.edu.cn/wujx/paper/AAAI2023_AFM.pdf

动机&背景

低秩近似是一种在模型精度和模型大小之间取得平衡的有效的压缩技术，一直是 CNN 模型压缩的主流方法之一，但它在 Transformer 上的应用和研究较少。现有方法需要完整的数据集来微调压缩模型，这些模型既费时又需要大量数据。本文通过 SVD 分解发现了 Transformer 结构的一大特点——模型权重不是低秩的，而特征（即激活）是低秩的。

本文由此设计了一种自适应搜索方法来确定压缩模型架构，即自适应原子特征模仿（AAFM），用于低秩分解。近似会随着深度的增加而累积误差，因此本文还提出了全局特征模拟（GFM）来使用少量未标记样本微调压缩模型。该方法可以很容易地应用于 NLP 和 CV 领域，只需要很少的样本和较短的压缩时间，就可以自适应地确定压缩模型结构，并很好地推广到下游任务。

方法

本文所提出的方法主要可分为三个部分：首先是低秩分解的分析方法，即原子特征模拟（AFM）；其次，为了自动确定压缩模型的结构，本文提出了自适应原子特征模拟（AAFM）；最后，为了弥补误差累积，本文还提出了全局特征模拟（GFM）来最小化输出特征的差异。在整个压缩过程中，该方法只需要少量未标记的样本。

2.1 基础知识

与现有的主流方法类似，本文也将整个 Transformer 模型的压缩问题拆分为多个线性层的压缩子问题，即针对 QKV 层、输出投影层、FC1 和 FC2 四种线性层独立进行低秩近似。为了方便起见，我们可以假设线性层的输入为，输出为，权重矩阵和偏置分别为和，他们的关系很简单：

标准的低秩近似方式如下，其中。

常见的做法是对进行 SVD 分解，但本文的实验分析发现 Transformer 的权重矩阵几乎是满秩的，选择较小时，低秩近似的信息损失很大，而选择较大的话，模型的压缩比则相对有限。

2.2 原子特征模仿（AFM）

本文提出了一种特征信息量的分析方法，将特征视为随机特征向量的多个实例，并计算其协方差矩阵，并对其进行特征分解（即主成分分析或 PCA）：

图 1 分析了 DeiT-B 模型在 ImageNet1k 验证集上的权重、输入特征和输出特征的特征分解结果。具体来说，图像的横轴是层序号，纵轴是保留 90% 的特征或奇异向量能量所需要的维度比例。从图中可以看出，输出特征所需的维数小于输入特征和模型权重，这表明输出特征更有可能是低秩的（即分解友好），但模型权重不是。同时，从低秩近似的视角观察 Transformer 模型，较低层对于低秩近似更加友好，较高层则需要更大的秩来保持足够的信息。

由此本文提出了原子特征模仿（AFM），不是分解模型权重，而是旨在分解输出特征。由于该方法只模仿单层内的特征，不涉及任何其他层，所以它是原子的。从式（3）的分解中，我们可以只保留前个特征值，并将选择的前列，其中，因此：

对照式（2）可以表示为：

算法 1 展示了 AFM 的具体细节，只需要少量样本即可完成协方差的统计。

2.3 自适应原子特征模仿（AAFM）

低秩近似的一大挑战是准确地确定不同层保留的秩，本文提出了自适应 AFM（AAFM）来克服这一困难。AAFM 的基本思想是保持更高的秩，甚至不压缩那些更敏感的层，同时对那些不太敏感的层采取更积极的压缩策略。

为了测量层的灵敏度得分，本文在参考数据集上提取原始模型的输出 logits，并评估在单层中应用 AFM 之前/之后的性能变化。为了最大限度地提高 GPU 利用率并减少搜索开销，我们将秩设置为 32 的倍数（类似于网格搜索）。最后，AAFM 以 AFM 前后两个模型之间的KL散度作为每层的灵敏度得分，即：

在获得具有不同秩的灵敏度得分后，给定目标模型大小，AAFM 最小化所有层的灵敏度得分之和。由于是整数，该问题可以视为一个整数规划问题，本文采用了简单的贪婪算法来近似地解决它。

2.4 全局特征模仿（GFM）

尽管 AAFM 的每层内部的重建误差很小，但这一误差会随着更多线性层的近似而累积。因此，作者提出了全局特征模仿（GFM）来校正它们。GFM 非常简单：使用少量样本对最终 LayerNorm 层之后的输出特征图进行优化：

经验表明，即使在少量样本中，通过 GFM 对压缩网络进行微调也不会导致过拟合，并且对提高精度非常有帮助。

实验

视觉任务压缩：表 1 展示了本文的方法在 DeiT-B、Swin-B 和 Swin-L 的压缩性能表现，并对每个阶段做了消融分析，本文的方法在删除 40% 参数量，提速 24.5% 时在 ImageNet-1k 的准确率只降低 0.57%，远远超过 SVD 分解。

▲ 表1. ImageNet-1k DeiT-B、Swin-B 和 Swin-L 低秩近似的 Top-1 准确率

迁移能力：表 2 和表 3 分别展示了本文的低秩近似方法在检测、分割和下游分类任务上的表现。在低秩近似后，模型在各个下游任务的表现与原始模型相当，这说明了本文所提出的低秩近似方法的有效性。

▲ 表2. MS-COCO2017 数据集 Swin-B 的检测分割 mAP表现

▲ 表3. 下游分类任务下 DeiT-B 的表现

NLP 任务压缩：表 4 对了 SVD 和 AAFM 在 WikiText 数据集上的低秩近似表现。与之前的实验类似，本文方法的表现与原始模型相当。特别是当去除20%的参数时，AAFM 比 SVD 的困惑度低了 7.42。

▲ 表4. WikiText-103 上低秩近似模型的表现

消融实验：论文分析了不同自适应搜索方法（AAFM、Adaptive SVD）、不同全局特征模仿方法（GFM、soft-kd、hard-kd）以及不同参考样本数量对压缩性能的影响，一一证明了本文所提出的设计的有效性，具体细节可见原文。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

AAAI 2023 | 权重不是低秩的，但特征是

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

生成图片，分享到微信朋友圈

AAAI 2023 | 权重不是低秩的，但特征是

您可能也对以下帖子感兴趣